Класифікація об`єктів нечислової природи на основі непараметричних оцінок щільності

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

У СРСР в середині 70-х років активно ведуться роботи по статистичному аналізу нечислових даних [1]. В даний час у Всесоюзному центрі статистичних методів та інформатики ми при розробці методичних документів та програмних продуктів з прикладної статистики ділимо її на чотири частини відповідно до виду оброблюваних статистичних даних: на статистику випадкових величин, багатовимірний статистичний аналіз, статистику тимчасових рядів і випадкових процесів, статистику об'єктів нечислової природи (іншими словами, статистику нечислових даних).

Імовірнісний і статистичний аналіз нечислових даних супроводжували теорію ймовірностей і математичну статистику з самого початку їх розвитку. Типовими прикладами є урнових схеми і вивчення народжуваності. Випробування Бернуллі-імовірнісна модель найпростішого об'єкта нечислової природи. Найбільш масовим застосуванням статистичних методів є, мабуть, вибірковий контроль якості продукції за альтернативною ознакою (тобто за ознакою "придатний" - "не придатний"), що відноситься, очевидно, до статистики об'єктів нечислової природи [2].

Розвиток прикладних досліджень призвело до необхідності розгляду як статистичних даних різних об'єктів нечислової природи. Цей термін застосовуємо до об'єктів, які недоцільно розглядати як описані числами. Іншими словами, мова йде про елементи простору, які не є лінійними (векторними). Приклади: бінарні відносини (ранжировки, розбиття, толерантності і т. д.); множини; нечіткі множини; результати вимірювань в шкалах, відмінною від абсолютної; як узагальнення перелічених об'єктів - елементи просторів загальної природи. Для результатів спостережень, що є об'єктами нечислової природи, розглядають [1] класичні задачі статистики: опис даних (включаючи класифікацію) оцінювання (параметрів, характеристик, щільності розподілу, регресійної залежності і т. д.).

Математичний апарат статистики об'єктів нечислової природи заснований не на властивості лінійності простору, а на застосуванні сімметрік і метрик в ньому, тому істотно відрізняється від класичного.

У прикладних роботах найбільш поширений приклад об'єктів нечислової природи - різнотипні дані. У цьому випадку реальний об'єкт описується вектором, частина координат якого - значення кількісних ознак, а частина - якісних (номінальних і порядкових).

Основна мета цього розділу - обгрунтувати новий підхід [3] до класифікації у просторах довільної природи, заснований на побудові не параметричних оцінок щільності розподілів імовірності в таких просторах [4].

"Нехай - вимірний простір,. Та Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності . суть-кінцеві заходи на., причому абсолютно неперервна відносно, тобто з рівності. . = 0 належить рівність = 0, де .. У цьому випадку на існує невід'ємна вимірна функція така, що

для будь-якого Функція називається похідною Родона-Никодима заходи в разі, а в разі, коли - імовірнісна міра, також щільністю ймовірності по відношенню до. "[5]

Будемо вважати, що в просторі об'єктів нечислової природи фіксована деяка міра, а міра відповідає розподілу Р випадкового елемента зі знаннями в вимірному просторі, тобто

Якщо - простір з кінцевого числа точок, то в якості міри можна використовувати яка вважає міру (приписується одиничний вага кожній точці), тобто, або

У разі вважає заходи значення щільності в точці збігається з ймовірністю потрапити в точку, тобто

Багато методів класифікації використовують відстані або міри близькості між об'єктами або ознаками. Такі методи придатні і для класифікації об'єктів нечислової природи, аби у відповідному просторі було визначено відстань або міра близькості. Таким чином, широко відомі ієрархічні агломеративні алгоритми найближчого сусіда, далекого сусіда, середньої зв'язку та ін, результатом роботи яких є дендрограми, насправді відносяться до статистики об'єктів нечислової природи.

Не намагаючись розглянути все різноманіття методів класифікації в статистиці об'єктів нечислової природи (див., наприклад, [6, 7]), зосередимося на тих з них, які використовують щільності розподілу та їх оцінки. Знаючи щільності розподілу класів, можна вирішувати основні завдання класифікації - як задачі виділення кластерів, так і завдання діагностики. У задачах кластер-аналізу можна знаходити моди щільності і приймати їх за центри кластерів або за початкові точки ітераційних методів типу динамічних згущень. У задачах діагностики (дискримінації, розпізнавання образів з учителя) можна приймати рішення про класифікацію об'єктів на основі відношення густин, відповідних класах. При невідомих плотностях представляється природним використовувати їх заможні оцінки. Коректність такої постановки, як правило, неважко обгрунтувати, наприклад, в стилі [8]. Таким чином, для перенесення на простору довільної природи основних методів класифікації аналізованого типу достатньо вміти оцінювати щільність розподілу ймовірності в таких просторах.

Методи оцінювання щільності ймовірності в просторах загального вигляду запропоновано і спочатку вивчені в [4]. Зокрема, в задачах класифікації об'єктів нечислової природи пропонуємо використовувати непараметричні ядерні оцінки щільності типу Парзена-Розенблатта (цей вид оцінок і його назва введені нами в [4]):

,

де К: - ядерна функція - вибірка по якій оцінюється щільністю, - відстань між елементом вибірки і точкою, в якій оцінюється щільність послідовність показників розмитості така, що при 0 і n Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності , А - нормуючий множник, що забезпечує виконання умови

Оцінки типу Парзена-Розенблатта - приватний випадок лінійних оцінок [4]. У теоретичному плані вони виділяються тим, що вдається отримувати результати такого ж типу, що в класичному одновимірному випадку (), але, зрозуміло, за допомогою зовсім іншого математичного апарату.

Одна з основних ідей полягає в тому, щоб узгодити між собою відстань і міри. А саме, розглянемо кулі радіуса

і їхні заходи

Припустимо, що як функція при фіксованому неперервна і строго зростає. Введемо функцію

Це - монотонне перетворення відстані, а тому - метрика або сімметріка (тобто нерівність трикутника може бути не виконано), яку, як і, можна розглядати як міру близькості між і Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності .

Введемо

.

Оскільки визначена однозначно, то

^

де., а тому

Перехід від до Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності нагадує класичне перетворення, використане Н. В. Смирновим,, що переводить випадкову величину з безперервною функцією розподілу у випадкову величину, рівномірно розподілену на [0, 1]. Обидва розглянутих перетворення істотно спрощують подальші розгляду.

Перетворення залежить від точки, що не впливає на подальші міркування, оскільки обмежуємося вивченням збіжності в точці.

Функцію, для якої міра кулі радіуса дорівнює, називають [4] природним показником відмінності або природної метрикою. У разі простору і евклідової метрики маємо

де-об'єм кулі одиничного радіусу ст.

Оскільки можна записати, що

де

то перехід від до Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності відповідає переходу від до Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності . Вигода від такого переходу полягає в тому, що твердження набувають більш просте формулювання.

ТЕОРЕМА 1. Нехай - природна метрика,

Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності

Щільність неперервна в і обмежена на, причому. Тоді, оцінка є спроможною, тобто за ймовірністю при,

Теорема 1 доведена в [4]. Проте залишається відкритим питання про швидкість збіжності ядерних оцінок, тобто про поведінку величини

і про оптимальний виборі показників розмитості.

Введемо круговий розподіл і кругову щільність.

ТЕОРЕМА 2. Нехай ядерна функція неперервна і при Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності . Нехай кругова щільність допускає розкладання

причому залишковий член рівномірно обмежений [0, 1 ,....,]. Нехай

Тоді

Величина досягає мінімуму, рівного

при

що збігається з класичними результатами для (див. [9, с316]). Зауважимо, що для зменшення зсуву оцінки доводиться застосовувати знакозмінні ядра.

У випадку дискретних просторів природних метрик не існує. Проте можна отримати аналоги теорем 1 і 2 переходячи до межі не тільки за обсягом вибірки, але і з параметру дискретності.

Нехай - послідовність кінцевих просторів, - відстані в

для будь-кого.

Покладемо

,

,

,

Тоді функції кусково постійні і мають скачки в деяких точках, причому.

ТЕОРЕМА 3. Якщо при Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності (Іншими словами, при Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності ), То існує послідовність параметрів дискретності така, що при, Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності , Справедливі висновки теорем 1 і 2.

ПРИКЛАД 1. Простір усіх підмножин кінцевої множини з Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності елементів допускає [10, Пар 4. 3] аксіоматичне введення метрики, де Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності - Символ симетричної різниці множин. Розглянемо непараметричних оцінку щільності типу Парзена - Розенблатта, де Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності - Функція нормального стандартного розподілу. Можна показати, що ця оцінка задовольняє умовам теореми 3.

ПРИКЛАД 2. Розглянемо простір функцій, визначених на кінцевій множині зі значеннями в кінцевій множині. Цей простір можна інтерпретувати як простір нечітких множин [11]. Очевидно,. Будемо використовувати відстань. Непараметричні оцінка щільності має вигляд:.

Якщо, Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності , То при виконані умови теореми 3, а тому справедливі теореми 1 і 2.

. ПРИКЛАД 3. Розглядаючи простору ранжировок об'єкт непреов, в якості відстані між ранжировками і Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності . Тоді. не прагнути до 0 при., умови теореми 3 не виконані.

Простору різнотипних ознак - це декартово твір безперервних і дискретних просторів. Для нього можливі різні постановки. Нехай, наприклад, число градацій якісних ознак залишається постійним. Тоді непараметричні оцінка щільності зводиться до твору частоти потрапляння в точку в просторі якісних ознак на класичну оцінку Парзена-Розенблатта в просторі кількісних змінних. У загальному випадку відстань можна, наприклад, розглядати як суму евклідова відстані між кількісними чинниками, відстані між номінальними ознаками (, якщо і Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності , Якщо) і відстані між порядковими змінними (якщо і Класифікація об'єктів нечислової природи на основі непараметричних оцінок щільності - Номери градацій., То.

Наявність кількісних чинників призводить до безперервності і строгому зростанням, а тому для непараметричних оцінок щільності в просторах різнотипних ознак справедливі теореми 1 - 3.

Література

1.Орлов А.І. Стійкість у соціально-економічних моделях.-м.наук, 1979.-296 с.

2.Орлов А.І. Експертні оцінки / Питання кібернетики. Вип.58.-М.: Наукова Рада СРСР з комплексної проблеми "Кібернетика", 1979.С.17-33.

3.Орлов А.І. / Тези доповідей Четвертої міжнародної Вільнюської конференції з теорії ймовірностей та математичної статистики: Том 2.-Вільнюс, Вільнюський держуніверситет, 1985.С.278-280.

4.Орлов А.І. / Аналіз нечислової інформації в соціологічних ісследованіях.-м.наук, 1985.С.58-92.

5.Орлов А.І. / Статистика. Імовірність. Економіка.-м.наук, 1985. С.99-107.

6.Орлов А.І. / Заводська лабораторія. 1987.Т.58. N3.С.90-91.

7.Орлов А.І. / Надійність та контроль якості. 1987.N6.С.54-59.

8.Рекомендаціі. Прикладна статистика. Методи обробки даних. Основні вимоги і характеристики .- М.: ВНИИС, 1987.-64 с.

9.Крівцов В.С., Фомін В.М., Орлов О.І. / Стандарти і якість. 1988.N3.С.32-36.

11.Колмогоров О.М. Статистичний приймальний контроль при допустимому числі дефектних виробів, що дорівнює нулю. - Л.: ДНТП, 1951. - 22 с.

12. Гнеденко Б.В. Математика і контроль якості продукції .- М.: Знание, 1978. - 64 с.

13. Бєляєв Ю.К. Імовірнісні методи вибіркового контроля.-М.: Наука, 1975. - 408 с.

14. Лумельська Я.П. Статистичні оцінки результатів контролю якості. - М.: Вид-во стандартів, 1979. - 200 с.

15. Орлов О.І. Сучасні проблеми кібернетики: Прикладна статистика. - М.: Знание, 1981. з 3-14.

16. Статистичні методи аналізу експертних оцінок / Вчені записки за статистикою, т. 29,-М.: Наука, 1977-384 с. 17.

17.Експертние оцінки в системних дослідженнях / Збірник праць. - Вип. 4. - М.: ВНИИС, 1970 - 120 с.

18. Експертні оцінки / Питання кібернетики. - Вип. 58. - М.: Наукова Рада АН СРСР з комплексної проблеми / "Кібернетика". 1979. - 200 с.


Додати в блог або на сайт

Цей текст може містити помилки.

Виробництво і технології | Доповідь
29кб. | скачати


Схожі роботи:
Класифікація об`єктів Тактика оснащення об`єктів системами охоронної сигналізації
Класифікація об`єктів Тактика оснащення об`єктів системами охорон
Класифікація об єктів по ступенях безпеки
Поняття мікрооб`єктів та їх класифікація в криміналістиці
Поняття і класифікація суб`єктів підприємницького права
Поняття і класифікація суб`єктів підприємницького права 2
Склад і класифікація об єктів бухгалтерського обліку в комерційному банку
Склад і класифікація об єктів бухгалтерського обліку в комерційному банку 2
Класифікація реклами на основі етапів життєвого циклу товару
© Усі права захищені
написати до нас